home *** CD-ROM | disk | FTP | other *** search
/ Columbia Kermit / kermit.zip / newsgroups / misc.20000824-20010305 / 000361_news@columbia.edu _Sat Feb 24 12:16:30 2001.msg < prev    next >
Internet Message Format  |  2020-01-01  |  4KB

  1. Return-Path: <news@columbia.edu>
  2. Received: from watsun.cc.columbia.edu (watsun.cc.columbia.edu [128.59.39.2])
  3.     by monire.cc.columbia.edu (8.9.3/8.9.3) with ESMTP id MAA23105
  4.     for <kermit.misc@cpunix.cc.columbia.edu>; Sat, 24 Feb 2001 12:16:30 -0500 (EST)
  5. Received: from newsmaster.cc.columbia.edu (newsmaster.cc.columbia.edu [128.59.59.30])
  6.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id MAA07804
  7.     for <kermit.misc@watsun.cc.columbia.edu>; Sat, 24 Feb 2001 12:16:29 -0500 (EST)
  8. Received: (from news@localhost)
  9.     by newsmaster.cc.columbia.edu (8.9.3/8.9.3) id LAA13738
  10.     for kermit.misc@watsun.cc.columbia.edu; Sat, 24 Feb 2001 11:52:41 -0500 (EST)
  11. X-Authentication-Warning: newsmaster.cc.columbia.edu: news set sender to <news> using -f
  12. From: fdc@columbia.edu (Frank da Cruz)
  13. Subject: Re: code pages/character set
  14. Date: 24 Feb 2001 16:52:40 GMT
  15. Organization: Columbia University
  16. Message-ID: <978oso$dd7$1@newsmaster.cc.columbia.edu>
  17. To: kermit.misc@columbia.edu
  18.  
  19. In article <9ZOl6.8778$Sv5.88347@wagner.videotron.net>,
  20. Patrick St-Jacques <pstjac@videotron.ca> wrote:
  21. : Hi everybody, I have a problem that needs immediate assistance. I work for
  22. : the Canadian custom agency, administrating the e-commerce platform, we
  23. : receive EDI transmission for all electronic forms coming in to Canada then
  24. : send this data to be processed by the mainframe.
  25. : Now my problem is this. because of the way the transaction are sent when it
  26. : gets to our Solaris box ,we have no clue what code page or character set we
  27. : receive is,  our system expects code page 819 (ISO standard) but some of our
  28. : clients can sent their data using 850 (dos French) or 437 ( dos US) or even
  29. : special code pages.
  30. : Now my question is this : Is their a utility in Solaris 7 that can determine
  31. : what code page a file is using.
  32. No.  It is possible to tell if a file is 7-bit or 8-bit.  If it has 8-bit
  33. bytes, anything that you can tell about it is a matter of probablity and
  34. statistics, not certaintly.  It can be determined with a fair amount of
  35. reliability whether it is text or binary.  If it is text, it can be determined
  36. whether it is UTF-8, UCS-2 (or -16), or some 8-bit character set.  It is
  37. virtually impossible without some form of natural language recognition to
  38. tell one 8-bit character ("code page") set from another by inspection.
  39.  
  40. : Just a quick run down of our we get the data: we use x-400 transport and the
  41. : data is encrypted so we cannot convert the code page when we get it since
  42. : its encrypted, we want to check and convert(if necessary) after decryption.
  43. : We need to know this because we use IBM MQseries to transport our outside
  44. : world data to our applications (which are on the mainframe) I know MQseries
  45. : knows how to convert but it has to know what the original code page is and
  46. : because it is running on Solaris is assumes 819.
  47. Your setup is wrong from the beginning.  A common intermediate representation
  48. should be used for text on the wire.  This is a fundamental principal of
  49. communication protocols.  It is the responsibility of the sender
  50. to convert its local text format and character set to the common one for
  51. transmission.
  52.  
  53. Kermit protocol and software has been doing this since the 1980s:
  54.  
  55.   http://www.columbia.edu/kermit/
  56.  
  57. In your example, the client would use Kermit to send its code page 437 or 850
  58. data from a PC (via dialup or TCP/IP) and convert it to ISO 8859-1 as part of
  59. the transfer.  Your Sun could use Kermit to send the ISO 8859-1 data to the
  60. IBM mainframe, whose Kermit program would convert it to the required IBM
  61. Country Extended Code Page (CECP), or you could continue to use the IBM MQ
  62. method for that stage.
  63.  
  64. Many ODI applications use Kermit as the transport, some of them for
  65. exactly this reason, as well as because it is independent of the platform
  66. and the communication method.  Now you can also use the Kermit FTP client:
  67.  
  68.   http://www.columbia.edu/kermit/ftpclient.html
  69.  
  70. in the same way.  It's first and, to my knowledge, only FTP client that
  71. converts character sets.  It also allows for secure, encrypted transfers.
  72.  
  73. - Frank